#оценка веб-агентов05.06.2025
WebChoreArena: Новый уровень тестирования AI-агентов с задачами на память и многопроцессное мышление
WebChoreArena представляет сложные задачи с памятью и рассуждениями для оценки AI-веб-агентов, выявляя серьёзные вызовы для современных моделей в отличие от простого серфинга.